KL para un KL: Destilación on-policy con línea base de variable de control
<meta name=description content=Destilación on-policy con línea base de variable de control: optimiza el aprendizaje por refuerzo, mejora estabilidad y convergencia. Técnica clave para modelos eficientes.>